Введение в глубокое обучение с подкреплением (DRL)

Глубокое обучение с подкреплением (DRL) объединяет высокоразмерные возможности представления глубоких нейронных сетей с оптимальной рамочной основой обучения с подкреплением. В отличие от обучения с учителем или без учителя, DRL агенты учатся через пробу и ошибку во взаимодействии с динамической средой, принимая последовательные решения без немедленных, явных меток. Это интеграция позволяет агентам напрямую обрабатывать сложные, необработанные данные (например, пиксельные данные).

1. Парадигма обучения DRL

Агент обучения с подкреплением работает в непрерывном цикле: наблюдая за средой Состояние ($S_t$), выполняя действие Действие ($A_t$), и получая потенциально разреженный или задержанный скалярный вознаграждение ($R_{t+1}$). Основная проблема — это задача распределения кредита: определение, какие предыдущие действия ответственны за будущий сигнал вознаграждения.

2. Цель оптимизации

Конечная цель — найти оптимальную стратегию, или политику ($\pi^*$), которая представляет собой отображение из состояний в действия, максимизирующее ожидаемый суммарный дисконтированный доход ($G_t$). Дисконт-фактор ($\gamma \in [0, 1]$) имеет математическое значение, определяя, насколько мы ценим немедленные награды по сравнению с наградами, ожидаемыми в отдалённом будущем.

$$G_t = \sum_{k=0}^{\infty} \gamma^k R_{t+k+1}$$

The Fundamental RL Cycle

An illustration of the Markov Decision Process (MDP) framework. The Agent's policy dictates the action ($A_t$) based on the current state ($S_t$), leading the Environment to transition to a new state ($S_{t+1}$) and provide a reward ($R_{t+1}$).

The Reinforcement Learning Cycle: Agent, Environment, State, Action, Reward

Question 1

How does the DRL agent receive feedback from the environment?

Explicit labels/targets

Backpropagation through time

Scalar reward signal

Labeled demonstration data

Question 2

What does the policy ($\pi$) mathematically represent?

The predicted total reward

A distribution over actions given a state

The probability of transitioning to a new state

The error between predicted and actual returns

Challenge: The Discount Factor

Analyzing the Temporal Horizon.

Consider two scenarios:
1. $\gamma = 0$
2. $\gamma \approx 1$

Describe the agent's behavioral preference in each case regarding the timeline of rewards.

Step 1

How does the choice of $\gamma$ affect the policy's horizon?

Solution:
If $\gamma = 0$, the agent is myopic (shortsighted), focusing only on the immediate reward $R_{t+1}$. If $\gamma \approx 1$, the agent is far-sighted, equally weighting immediate and distant future rewards, leading to planning over a very long horizon.